4 Algorithm Comparison
4.1 Overview
several statistical hypothesis testing approaches
「統計的仮説検定」
機械学習モデルやアルゴリズムの比較に応用する
nested cross-validation
よく使われるz-score testとその問題点
Dietterich 1998を引いて、McNemar検定と5x2cv検定(適用する条件も明示)
4.9と4.10は網羅するために紹介していて実際の使用は非推奨
4.13 Effect size
この論文のスコープ外とした
we may also want to consider effect sizes since large samples elevate p-values and can make everything seem statistically significant.
「大きなサンプルはp値を上昇させ、何でも統計的に有意と見えうるので、effect sizeを考えたいかもしれない」